#Richard Sutton
強化學習之父最新萬字訪談:為何大語言模型是死胡同
9月27日,強化學習之父、2024年圖靈獎得主Richard Sutton教授接受海外播客主持人Dwarkesh Patel的深度訪談。本次對話始於一個問題:當前最熱的大語言模型(LLM)究竟是通往AGI的大道,還是最終會走進死胡同?Sutton教授從強化學習的“第一性原理”出發,系統地闡述了為何他認為LLM範式缺少了智能最本質的幾個要素。Sutton教授指出,LLM本質上只是在“模仿”擁有世界模型的人類,其本身並不具備一個能預測客觀世界、並因“意外”而學習的真實世界模型。它預測的是“下一個詞”,而非“下一件事”。針對行業普遍認為“先用LLM模仿學習獲得基礎,再用強化學習微調”的路線,Sutton指出,在一個沒有客觀“對錯”標準(即獎勵訊號)的框架裡,知識和先驗無從談起。他認為,LLM試圖繞過“擁有目標”和“區分好壞”這兩點,是從一開始就走錯了方向。針對“人類主要通過模仿學習”的普遍看法, Sutton教授認為無論是動物還是嬰兒,其學習的核心都是基於試錯和預測的“經驗範式”,模仿學習只是後期附加的一小部分。因此,將AI的學習建立在模仿人類資料的范子上,是對智能本質的誤解。在談及AI的未來時,Sutton教授提出,在未來數字智能可以無限複製和融合知識的時代,如何保證一個智能體在吸收外部知識時不被“腐化”或“覆蓋”,將成為一個關乎“心智安全”的重大挑戰。01LLM本質是模仿,而強化學習追求的是理解從強化學習的視角來看,當前以大語言模型為核心的主流思維方式究竟缺失了什麼?人們普遍認為,一個能模擬數兆Token的龐大模型,必然已經建立了一個強大的世界模型,可以說是我們迄今創造出的最好的世界模型,它還缺少什麼呢?Richard Sutton:這確實是一個截然不同的視角,兩種觀點很容易產生分歧,甚至到無法相互溝通的程度。大語言模型已經變得非常龐大,整個生成式AI 領域也是如此。領域內很容易颳起一陣陣潮流,讓我們忽略了最根本的問題。而在我看來,強化學習才是人工智慧的根本。什麼是智能?智能的核心在於理解你所在的世界。強化學習研究的就是如何理解世界,而大語言模型研究的是如何模仿人類,去做人們告訴你該做的事情。它們的目的不是自主地決策。(關於世界模型)我基本不同意你剛才的說法。模仿人類的言論,和真正建立一個世界模型完全是兩碼事。你只是在模仿那些本身擁有世界模型的存在,也就是人類。我無意讓討論變得針鋒相對,但我必須質疑“大語言模型擁有世界模型”這一觀點。一個真正的世界模型,能讓你預測接下來會發生什麼;而大語言模型能做的,是預測一個人會說什麼,它們並不能預測客觀世界會發生什麼。引用 Alan Turing 的話,我們想要的是一台能夠從經驗中學習的機器。這裡的經驗,指的是你生命中真實發生的一切:你採取行動,觀察後果,並從中學習。但大語言模型是從別的東西里學習的。它們的學習範式是:“在某個情境下,某個人是這麼做的”。這其中隱含的邏輯就是,你也應該照著那個人的方式去做。或許問題的關鍵在於,模仿學習為模型提供了一個解決問題的良好先驗知識,這可以成為我們未來通過經驗訓練模型的基礎,您同意這種看法嗎?(關於先驗知識與目標)我不同意。這確實是許多支援大語言模型者的觀點,但我認為這個視角並不正確。要談論先驗,首先必須有一個客觀存在的事實。先驗知識,應該是通往真實知識的基礎。但在大語言模型的框架裡,什麼是真實知識?它根本沒有對真實知識的定義。究竟是什麼標準,來定義一個行為的“好壞”呢?你提到了持續學習的必要性。如果模型需要持續學習,那就意味著它要在和世界的日常互動中學習。那麼在日常互動中,就必須有某種方式來判斷什麼是對的。但在大語言模型的設定裡,有任何方法能判斷什麼話是“應該說的”嗎?模型說了一句話,它並不會得到關於這句話說得到底對不對的反饋,因為根本就沒有一個“對”的定義。它沒有目標。如果沒有目標,那麼無論模型說什麼都可以,因為根本沒有對錯之分。這裡沒有客觀事實基準。如果沒有客觀事實基準,你就不可能有先驗知識,因為所謂的先驗知識,本應是關於事實真相的一種提示或初步信念。但在大語言模型的世界裡,真相是不存在的。沒有什麼話是絕對“應該說的”。而在強化學習中,是存在應該說的話、應該做的事的,因為“正確”的事就是能為你帶來獎勵的事。我們對“什麼是正確的事”有明確的定義,因此我們才能擁有先驗知識,或者接受人類提供的關於“何為正確”的知識。然後,我們可以去驗證這些知識是否真的正確,因為我們有判斷“實際什麼是正確的事”的最終標準。一個更簡單的例子是建立世界模型。你預測接下來會發生什麼,然後你觀察實際發生了什麼,這裡有客觀事實基準。但在大語言模型中沒有客觀事實基準,因為它們並不預測接下來會發生什麼。當你在對話中說了一句話,大語言模型並不會預測對方會如何回應,或者說外界的反應會是什麼。即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?即便是大語言模型生成對使用者回應的預測,這難道不算是真正的預測嗎?在模型的思維鏈推理中,我們能看到它會自我糾錯,這種靈活性難道不是在特定時間維度上的學習和調整嗎?這與“預測下一個Token”的本質有何不同?預測接下來會出現什麼,然後根據“意外”(即預測錯誤)來更新自己,這不就是一種學習嗎?(關於LLM是否能預測)不,它只是能生成文字來回答“你預測會怎樣”這類問題,但這並非實質意義上的預測,因為它不會對實際發生的事情感到“驚訝”。如果發生的事情和它所謂的“預測”不符,它不會因為這個意外而做出任何改變。而要學習,就必須在出現意外時做出調整。我的觀點是,它們在任何實質意義上都無法預測接下來會發生什麼。它們不會對接下來發生的事感到驚訝。無論發生什麼,它們都不會基於發生的事實來做出任何改變。(關於預測下一個Token)“下一個 Token”是模型自己應該說什麼,是它自己的行為。這和世界會針對它的行為給出什麼回應,是兩碼事。讓我們回到它們缺乏目標這一根本問題上。對我而言,擁有目標是智能的本質。一個系統只有在能夠實現目標時,才稱得上是智能的。我很認同 John McCarthy 的定義:智能是實現目標這一能力中的計算部分。你必須擁有目標,否則你只是一個行為系統,沒什麼特別的,也談不上智能。您是否同意大語言模型沒有目標,如果它們的目標是預測下一個Token,為什麼這在您看來不是一個實質性的目標?那不是目標。它不會改變世界。Token 朝你湧來,你預測它們,但你影響不了它們。那就不是一個目標,不是一個實質性的目標。你不能因為一個系統只是坐在那兒,為自己精準的預測而沾沾自-喜,就說它擁有目標。02依賴人類知識的方法終將被那些只依賴真實經驗和計算的方法所取代為什麼您認為在LLM的基礎上繼續做強化學習,不是一個有前景的方向?我們似乎已經能賦予這些模型目標,比如贏得國際數學奧林匹克競賽金牌的模型,看起來確實有“解出數學題”這個目標,為什麼我們不能把這種模式推廣到其他領域呢?許多人恰恰是用您極具影響力的文章《苦澀的教訓》來為大力發展LLM辯護,因為LLM是目前唯一能將海量算力投入到學習世界知識中,並且可規模化的方法,您怎麼看待您的理論被用於支援您所反對的觀點?支援LLM的人會認為,LLM是開啟未來“經驗學習”的初始框架或基礎,為什麼這是一個完全錯誤的起點?我們為什麼不能就從LLM開始呢?在您看來,一個真正可規模化的方法應該是什麼樣的?Richard Sutton:數學問題很特殊。建立一個物理世界的模型,和推導數學假設或運算的結果,這兩者截然不同。物理世界是經驗性的,你必須通過學習才能瞭解其規律。而數學更偏向計算,更像是傳統的規劃問題。在數學這個領域裡,模型可以被賦予一個“找到證明”的目標,它們也確實在某種意義上被給予了這樣一個目標。(關於《苦澀的教訓》)大語言模型算不算“苦澀的教訓”的一個實例,這是個有趣的問題。它們顯然是一種利用海量算力的方法,一種能隨著算力增長而持續擴展,直到耗盡整個網際網路資料的方法。但它們同時也是一種注入了海量人類知識的方法。這就帶來一個有趣的問題,一個社會學或者說產業界的問題:當它們耗盡了人類資料之後,是否會被那些能夠直接從真實經驗中獲取無限資料的系統所取代?從某些方面看,LLM的發展是“苦澀的教訓”的典型反例。我們向大語言模型注入的人類知識越多,它們表現就越好,這讓我們感覺很棒。但我預言,未來必定會出現能從真實經驗中學習的系統,它們性能會強大得多,擴展性也強得多。到那時,這將成為“苦澀的教訓”的又一個明證:那些依賴人類知識的方法,終將被那些只依賴真實經驗和計算的方法所取代。(關於LLM作為起點)在“苦澀的教訓”的每一個歷史案例中,你當然都可以先從人類知識入手,然後再去做那些可規模化的事情。這在理論上總是可行的,沒有任何理由說這一定不行。但事實上,在實踐中,這最終都被證明是錯誤路線。人們的思維會被固化在基於人類知識的方法論上,這或許是心理原因,但歷史一再證明了這一點。最終,他們都會被那些真正具備無限擴展性的方法所取代。(關於可規模化的方法)GLISH可規模化的方法,就是你從經驗中學習。你不斷嘗試,看什麼管用,什麼不管用,不需要任何人來告訴你。首先,你必須有一個目標。沒有目標,就無所謂對錯,也無所謂好壞。而大語言模型,正試圖繞過“擁有目標”和“區分好壞”這兩點矇混過關。這恰恰是從一開始就走錯了方向。03人類是靠模仿學習的嗎?將AI的學習範式與人類進行對比,是否存在相似之處?孩子們難道不是從模仿開始學習的嗎?他們觀察他人、模仿發聲,最終說出同樣的詞語,然後模仿更複雜的行為,比如部落裡的狩獵技巧。這難道不說明人類的學習過程中存在大量的模仿學習嗎?即便模仿不能解釋所有行為,但它至少引導了學習過程,就像一個早期的LLM,它做出一個猜測,然後得到一個與真實答案不同的反饋,這不就像一個發音不準的孩子嗎?我們又該如何定義“上學”,難道那不是一種訓練資料嗎?人的學習總有階段之分,早期理解世界、學習互動,這難道不算是一個訓練階段嗎?畢竟“訓練”這個詞本身就源於對人類的培養。Richard Sutton:不,當然不是。我很驚訝我們的觀點會如此不同。我看到的孩子,只是在不斷地嘗試,他們揮舞手臂,轉動眼球。他們如何轉動眼球,甚至他們發出的聲音,都不是模仿來的。他們或許是想發出同樣的聲音,但具體的動作,也就是嬰兒實際做出的行為,並沒有一個可供模仿的範本或目標。(關於模仿作為引導)大語言模型是從訓練資料中學習的,而不是從經驗中學習。它學習的來源,是它在未來正常生命周期裡永遠無法得到的東西。在真實生活中,你永遠不會得到一個“標準答案”式的訓練資料,告訴你“在這種情況下你就應該做這個動作”。(關於上學與訓練)我覺得這更多是語義上的區分。上學是非常後期的事了。或許我不該說得這麼絕對,但我對“上學”也基本持同樣的看法。正規教育是特例,你不應該把你的理論建立在特例之上。沒有任何一個階段,你有關於“你應該做什麼”的訓練。你只是觀察事情的發生,但沒人告訴你該怎麼做。這一點是顯而易見的。我不認為學習的本質是“被訓練”。我認為學習就是學習,是一個主動探索的過程。孩子去嘗試,然後觀察結果。我們想到一個嬰兒的成長時,腦海裡浮現的不是“訓練”。這些問題其實已經被研究得很透徹了。如果你去瞭解心理學家如何看待學習,會發現根本沒有所謂的模仿學習。也許在某些極端案例中,人類會這麼做,或者看起來像在這麼做,但並不存在一種叫做“模仿”的普適性的動物學習過程。普適性的動物學習過程是用於預測和試錯控制的。有時候最難看清的,反而是最顯而易見的事,這真的很有趣。只要你觀察動物如何學習,瞭解心理學對它們的理論研究,你就會發現一個顯而易見的事實——監督學習根本不是動物學習方式的一部分。我們不會得到“期望行為”的範本。我們得到的,是客觀發生事件的範本,是一件事接著另一件事發生的規律。我們得到的是“我們做了某件事,並承擔了相應後果”的經驗,但我們從未得到過監督學習的範本。監督學習並非自然界的產物。即便你在學校裡看到了類似的東西,我們也應該忽略它,因為那是人類社會特有的現象,在自然界中並不普遍。松鼠不需要上學,但它們能學會關於世界的一切。我想說,動物界不存在監督學習,這是一個絕對顯而易見的事實。(關於人類的獨特性與文化演化)你為什麼要去區分人類呢?人類也是動物。我們與其他動物的共同點才更有趣,我們應該少關注那些所謂的獨特之處。我們正在嘗試復現智能。如果你想知道是什麼讓人類能夠登上月球、製造半導體,我認為我們真正需要理解的,正是促成這一切的根本原因。沒有任何其他動物能夠做到這些,所以我們才需要理解人類的特別之處。有意思的是,你覺得你的觀點顯而易見,而在我看來,事實恰恰相反。我們必須理解我們作為動物的本質。如果我們能理解一隻松鼠,我認為我們離理解人類智能也就八九不離十了。語言,只是附著在表層的一層薄殼。心理學家Joseph Henrich關於文化演化的理論認為,許多複雜技能,比如在北極捕獵海豹,無法單靠推理得出,必須通過模仿長輩來代代相傳,這似乎說明模仿是文化知識習得的第一步,您對此怎麼看?此外,為什麼您認為我們應該少關注人類的獨特性,而去關注我們與其他動物的共同點?畢竟我們想要復現的是能登上月球、製造半導體的智能,這正是人類的獨特之處。不,我的看法和你一樣。不過,模仿學習只是建立在基礎的試錯學習和預測學習之上的一個很小的部分。這或許確實是我們與許多動物的不同之處,但我們首先是一種動物。在我們擁有語言以及所有其他特性之前,我們早就是動物了。你確實提出了一個非常有意思的觀點:持續學習是大多數哺乳動物都具備的能力,甚至可以說是所有哺乳動物。有趣的是,這項幾乎所有哺乳動物都具備的能力,我們當前的 AI卻不擁有。與之相反,理解並解決複雜數學問題的能力——當然這取決於你如何定義數學,我們的 AI 具備,但幾乎沒有任何動物具備。那些事情最終變得困難,那些事情反而變得簡單,這確實耐人尋味。莫拉維克悖論。沒錯,正是這個。04智能的核心在於利用經驗流調整自身行動以獲得更多獎勵您所設想的這種另類範式,或者說“經驗範式”具體是指什麼?當您設想一個達到人類水平、通用的持續學習AI Agent時,它的獎勵函數會是什麼?是預測世界,還是對世界施加影響?一個通用的獎勵函數會是什麼樣的?如果我們拋棄了“訓練期-部署期”的範式,是否也要拋棄“模型主體-模型實例”的範式?我們如何讓一個智能體同時處理不同任務,並整合從中獲得的知識?Richard Sutton:我稱之為經驗範式。我們來具體闡述一下。這個範式認為,感知、行動、獎勵,在你的一生中持續不斷地發生,構成了所謂的經驗流。這個經驗流是智能的基礎與核心。所謂智能,就是利用這個經驗流,並調整自身行動,以期在經驗流中獲得更多獎勵。因此,學習源自於經驗流,並且學習的內容也是關於經驗流的。這後半句尤其關鍵,它意味著你學到的知識,本質上是關於這個經驗流的。你的知識,是關於“如果你採取某個行動,將會發生什麼”,或是關於“那些事件會接連發生”。知識始終是關於這個經驗流的。知識的內容,就是對經驗流的陳述。正因為它是對經驗流的陳述,你便可以通過將其與後續的經驗流進行比對來檢驗它,從而實現持續學習。(關於通用獎勵函數)它們並非“未來”的。它們一直都存在,這就是強化學習的範式:從經驗中學習。獎勵函數是任意的。如果你在下象棋,獎勵就是贏得棋局;如果你是一隻松鼠,獎勵可能與獲得堅果有關。通常來說,對於動物,你可以說獎勵是為了趨樂避苦。我認為還應該有一個與增進對環境理解相關的部分,這可以算是一種內在動機。(關於知識整合)我明白了。對於這種 AI,人們會希望它能做各種各樣的事情。它在執行人們希望的任務,但同時,又通過執行這些任務來學習關於世界的新知識。我不喜歡你剛才那樣使用“模型”這個詞,我覺得用“網路”會更好,因為我想你指的就是網路。或許可以有很多網路。無論如何,知識會被學習,你會有副本和許多實例。當然,你會希望在實例之間共享知識,實現這一點有很多種可能的方式。今天,一個孩子成長並學習關於世界的知識,然後每個新生兒都必須重複這個過程。而對於 AI,對於數字智能,你有望只做一次,然後將其複製到下一個智能體中作為起點。這將節省巨大的成本,我認為這比試圖從人類身上學習要重要得多。我同意你說的這種能力是必需的,無論你的起點是不是大語言模型。如果你想要達到人類或動物水平的智能,你就需要這種能力。05AI如何處理稀疏獎勵與海量資訊?像創業這種獎勵周期可能長達十年的事,人類能夠設立中間的輔助獎勵來引導自己,AI要如何實現這一點?當一個人入職新崗位時,會吸收海量的背景資訊和隱性知識,通過時序差分學習這樣的過程,資訊頻寬是否足夠高,能讓AI吸收如此巨量的資訊?看起來似乎需要兩樣東西:一是將長期目標轉化為短期預測性獎勵的方法,二是在一開始就需要記住所有互動中獲得的背景資訊,什麼樣的學習過程能捕獲這些資訊呢?Richard Sutton:這是我們非常瞭解的問題,其基礎是時序差分學習(temporal difference learning),同樣的事情也發生在規模小一些的場景中。當你學習下象棋時,你的長期目標是贏得比賽,但你希望能夠從短期事件中學習,比如吃掉對手的棋子。你是通過一個價值函數來實現這一點的,這個函數預測長期的結果。然後,如果你吃掉了對方的棋子,你對長期結果的預測就會改變。預測值上升,你認為自己更有可能贏,你信念的增強會立刻強化那個導致吃子的走法。我們有創辦公司、賺大錢這個長達十年的目標。當我們取得進展時,我們會說,“哦,我實現長期目標的可能性更大了”,而這種感覺本身就獎勵了我們一路走來的每一個腳步。(關於海量資訊吸收)我不確定,但我認為這個問題的核心與“大世界假說”密切相關。人類之所以能在工作中變得有用,是因為他們遇到了自己所處的那個特定的小世界。這個小世界是無法被預見的,也不可能預先全部內建到腦子裡。世界太龐大了,你做不到。在我看來,大語言模型的夢想在於,你可以教會 AI Agent 一切。它將無所不知,無需在其生命周期中線上學習任何東西。而你的例子恰恰說明,你必須線上學習,因為即使你教會了它很多,它所處的特定生活、合作的特定人群以及他們的偏好,這些細微的、獨特的資訊,都與普通大眾的平均情況不同。這恰恰說明了世界是如此之大,你必須邊做邊學。(關於學習過程)我想說你只是在進行常規的學習。你之所以使用“背景”這個詞,可能是因為在大語言模型中,所有這些資訊都必須被放入上下文窗口中。但在一個持續學習的設定裡,這些資訊會直接融入權重。你會學習一個專門針對你所處環境的策略。或許你想問的是,獎勵訊號本身似乎太微弱了,不足以驅動我們需要完成的所有學習。但是,我們有感知,我們有所有其他可以用來學習的資訊。我們不只從獎勵中學習,我們從所有資料中學習。現在我想談談那個包含四個部分的基礎通用 AI Agent 模型。我們需要一個策略,策略決定了“在我所處的情境下,我該做什麼?” 我們需要一個價值函數,價值函數是通過時序差分學習來習得的,它會生成一個數值,這個數值表明事情進展得有多好。然後你觀察這個數值的升降,並用它來調整你的策略。所以你有了這兩樣東西。接著還有感知部分,負責建構你的狀態表示,也就是你對當前所處位置的感覺。第四個部分是我們現在真正觸及的核心,至少是最顯而易見的。第四部分是世界的轉移模型。這就是為什麼我對把所有東西都稱為“模型”感到不舒服,因為我想專門討論世界的模型,即世界的轉移模型。它關乎你的信念:如果你這樣做,會發生什麼?你的行為會帶來什麼後果?這是你對世界物理規律的理解。但它不僅是物理,也包括抽象模型,比如你如何從加州一路來到埃德蒙頓錄製這期播客的模型。那也是一個模型,而且是一個轉移模型。這個模型是習得的,它不是從獎勵中習得的,而是從“你做了些事,看到了結果,然後建構了那個世界模型”的過程中習得的。這個模型會通過你接收到的所有感知資訊得到極為豐富的學習,而不僅僅是通過獎勵。獎勵當然也必須包含在內,但它只是整個模型中微小而關鍵的一部分。06泛化與遷移Google DeepMind的MuZero模型是一個用於訓練專門智能體的通用框架,但不能訓練出一個通用策略來玩所有遊戲,這是否意味著強化學習由於資訊限制,一次只能學習一件事?還是說,需要對那種方法做出改變,才能讓它成為一個通用的學習AI Agent?Richard Sutton:這個理念是完全通用的。我一直把一個AI Agent 比作一個人作為我的典型例子。從某種意義上說,人只生活在一個世界裡。這個世界可能包含下象棋,也可能包含玩雅達利遊戲,但這些不是不同的任務或不同的世界,而是他們遇到的不同狀態。所以這個通用理唸完全不受限制。(關於MuZero的侷限)他們就是那樣設定的,讓一個 AI Agent 橫跨所有這些遊戲,並非他們的目標。如果我們想談論遷移,我們應該談論的是狀態之間的遷移,而不是遊戲或任務之間的遷移。從歷史上看,我們是否曾通過強化學習技術看到過建構通用智能體所需的那種遷移水平?當我們確實在這些模型中看到泛化時,這在多大程度上是研究人員精心雕琢的結果?此外,我們該如何看待大語言模型在解決奧數級問題上展現出的泛化能力,從只能解決加法問題到能處理需要不同技巧和定理的複雜問題,這難道不算是泛化的體現嗎?即便對於編碼任務,模型也從生成劣質程式碼,進化到能設計出更令開發者滿意的軟體架構,這似乎也是泛化的例子。(關於強化學習的遷移水平)問得好。我們現在在任何地方都看不到有效的遷移。良好性能的關鍵在於你能否很好地從一個狀態泛化到另一個狀態。我們沒有任何擅長此道的方法。我們現在有的是研究人員嘗試各種不同的東西,然後確定一種能夠很好地遷移或泛化的表示。但是,我們幾乎沒有能夠促進遷移的自動化技術,而且現代深度學習中也完全沒有使用這些技術。是人類做的,是研究人員做的,因為沒有別的解釋。梯度下降不會讓你實現好的泛化,它只會讓你解決當前的問題,不會讓你在獲得新資料時,以一種好的方式進行泛化。泛化意味著在一個事物上的訓練會影響你在其他事物上的行為。我們知道深度學習在這方面做得很差。例如,我們知道如果你在一個新事物上進行訓練,它往往會與你已知的所有舊知識發生災難性干擾,這正是糟糕的泛化。正如我所說,泛化是在一個狀態上的訓練對其他狀態產生某種影響。泛化這個事實本身無所謂好壞,你可以泛化得很差,也可以泛化得很好。泛化總會發生,但我們需要的是能夠促成良好泛化而非糟糕泛化的演算法。(關於LLM的泛化能力)大語言模型極為複雜。我們其實並不清楚它們在訓練前具體接觸過那些資訊。因為其接收的資料量過於龐大,我們只能靠猜測。這正是它們不適合作為科學研究工具的原因之一,整個過程充滿了太多不可控和未知的因素。也許它們確實解決了很多問題。但關鍵在於,它們是如何解決的?或許,它們解決這些問題根本無需泛化。因為要正確解答其中一部分問題,唯一的途徑可能就是掌握一個能解決所有相關問題的通用範式。如果通往正確答案的路只有一條,你找到了它,這不能叫作泛化。這只是找到了唯一解,模型也只是找到了那條唯一的路。而泛化指的是,當解決問題的方式有多種可能時,模型選擇了那個更優的、普適的方案。這些模型的內在機制本身並不能保證良好的泛化能力。梯度下降演算法只會促使它們去找到一個能解決訓練資料中已有問題的方案。如果解決這些問題的方式只有一種,模型就會採用那一種。但如果存在多種解決方式,其中一些方案的泛化性好,另一些則很差,演算法本身沒有任何機制能確保模型傾向於選擇泛化性好的那一種。當然,人是會不斷調整和最佳化的。如果模型表現不佳,研究人員就會持續進行偵錯,直到找到一個有效的方法,而這個方法,或許就是一個泛化能力強的方法。07AI發展軌跡:一個“古典主義者”的視角您投身AI領域多年,對您而言,這個領域最大的驚喜是什麼?是湧現了許多真正創新的成果,還是更多地在重新包裝和應用舊思想?當AlphaGo或AlphaZero這樣的成果引起轟動時,作為許多相關技術的奠基人,您的感覺是“這是全新的技術突破”,還是更像“這些技術我們90年代就有了,現在只是被成功組合應用了”?這種與領域主流思想長期保持“不同步”的狀態,是否塑造了您如今的學術立場?根據《苦澀的教訓》,一旦我們擁有了能與算力同步擴展的AGI“研究員”,回歸建構精細的手工解決方案是否會成為一種合理的選擇?當擁有大量AI時,它們會像人類社會那樣通過文化演進互相學習嗎?未來一個AI是應該用額外的算力增強自身,還是派生一個副本去學習全新知識再整合回來?在這個過程中,如何避免“心智污染”?Richard Sutton:這個問題我思考過,主要有幾點。首先,大語言模型的表現令人驚嘆。人工神經網路在處理語言任務上能如此高效,確實出人意料。過去,大家普遍認為語言是一種非常特殊、需要專門知識來處理的領域。所以,這給我留下了深刻印象。其次,AI 領域一直存在一個長期的路線之爭:一方是基於簡單、基本原則的方法,如搜尋和學習這類通用方法;另一方是依賴人類知識輸入的系統,如符號方法。在早期,搜尋和學習被稱為“弱方法”,因為它們只運用通用原則,而不借助將人類知識編碼進系統所帶來的強大能力。而後者被稱為“強方法”。在我看來,“弱方法”已經取得了徹底的勝利。這可以說是早期 AI 領域最大的懸念,而最終,學習和搜尋主導了潮流。從某種意義上講,這個結果對我而言並不意外,因為我一直都信奉並支援那些簡單的基本原則。即便是大語言模型,其效果好得驚人,但它的成功也讓我感到十分欣慰。AlphaGo 的表現同樣令人驚嘆,尤其是 AlphaZero。這一切都令人欣慰,因為它再次證明了:簡單的基本原則最終會勝出。(關於AlphaGo/AlphaZero)其實 AlphaGo 的成功有一個重要的先驅,那就是 TD-Gammon。當年 Gerry Tesauro 運用強化學習中的時序差分學習 (temporal difference learning, TD learning) 方法來訓練程序下西洋雙陸棋,最終擊敗了世界頂尖的人類選手,效果斐然。從某種意義上說,AlphaGo 只是將這一過程進行了規模化。當然,這種規模化的程度是空前的,並且在搜尋機制上也有額外的創新。但這一切的發展脈絡清晰,順理成章,所以從這個角度看,它的成功並不算意外。實際上,初代的 AlphaGo 並未使用 TD 學習,它需要等棋局完全結束後根據最終勝負進行學習。但後來的 AlphaZero 採用了 TD 學習,並被推廣到其他棋類遊戲中,表現都極為出色。我一直對 AlphaZero 的棋風印象深刻,我自己也下國際象棋,它會為了佔據優勢位置而主動犧牲子力,也就是“棄子爭勢”。它能如此果斷且耐心地為了長遠優勢而承受物質上的劣勢,這一點表現得如此之好,確實令人驚訝,但同時也讓我備感欣慰,因為它完全契合我的世界觀。這也塑造了我如今的學術立場。在某種程度上,我算是一個逆向思維者,一個想法與領域主流不總是一致的人。我個人很安於與我的領域長期保持這種“不同步”的狀態,可能長達數十年,因為歷史偶爾會證明我的堅持是對的。為了讓自己不感覺想法過於脫節或奇怪,我還有一個方法:不只侷限於眼前的領域和環境,而是回溯歷史長河,去探尋不同學科的先賢們對於“心智”這個經典問題的思考。我覺得自己並未脫離更宏大的思想傳統。相比於一個“逆向思維者”,我更願將自己視為一個“古典主義者”,我所遵循的,是那些偉大思想家們關於心智的永恆思考。(關於AGI之後的時代與《苦澀的教訓》)我們是如何實現這個 AGI 的?你的問題直接預設了這一步已經完成。那我們的任務就已經完成了。但你這是想用一個 AGI 去再造一個 AGI。如果這些 AGI 本身還不是超人類的,那它們能傳授的知識,自然也達不到超人類的水平。而 AlphaZero 實現改進的關鍵,恰恰在於它摒棄了人類知識的輸入,完全從自我對弈的經驗中學習。既然完全依靠自身經驗、無需其他智能體幫助的模式能取得如此好的效果,那你又為什麼反過來提議要“引入其他智能體的專業知識去指導它”呢?你提的那個場景確實很有趣。當你擁有大量 AI 時,它們會像人類社會通過文化演進那樣互相學習和幫助嗎?或許我們該探討這個。至於《苦澀的教訓》,不必太在意。那只是對歷史上特定 70 年的經驗總結,並不必然適用於未來的 70 年。一個真正有趣的問題是:假設你是一個 AI,你獲得了一些額外的算力。你是應該用它來增強自身的計算能力,還是應該用它衍生出一個自己的副本,派它去學習一些全新的東西——比如去地球的另一端,或者研究某個完全不同的課題——然後再向你匯報?我認為這是一個只有在數字智能時代才會出現的根本性問題,我也不確定答案。這會引出更多問題:我們真的能成功派出一個副本,讓它學到全新的知識,然後還能將這些知識順利地整合回本體嗎?還是說,這個副本會因為學習了不同的東西而變得面目全非,以至於無法再被整合?這到底可不可能?你可以將這個想法推向極致,就像我前幾天看你的一個視訊裡那樣:衍生出成千上萬的副本,讓它們高度去中心化地執行不同任務,最後再向一個中心主控匯報。這將會是一種無比強大的模式。(關於心智污染)我想在這個設想上補充一點:一個巨大的問題將是“心智污染” (corruption)。如果你真的可以從任何地方獲取資訊,並直接融入你的核心心智,你的能力會變得越來越強。理論上,這一切都是數位化的,它們都使用某種內部數字語言,知識遷移或許會很容易。但這絕不會像想像的那麼簡單,因為你可能會因此“精神失常”。如果你從外部引入一些東西並將其建構到你的核心思維中,它可能會反過來控制你、改變你,最終導致的不是知識的增長,而是自我的毀滅。我認為這會成為一個重大的隱患。比如,你的一個副本搞懂了某個新遊戲,或者研究透了印度尼西亞,你想把這些知識整合到自己的大腦裡。你可能會想:“簡單,把資料全讀進來就行了。” 但不行。你讀入的不僅僅是一堆位元,其中可能含有病毒,可能有隱藏的目標,它們會扭曲你、改變你。這將是個大問題。在這個可以進行數字衍生和重組的時代,你要如何保障自身的“網路安全”或者說“心-智安全”?08“AI繼承”:人類的未來您如何看待“AI繼承”這個話題?您的觀點似乎與主流看法相當不同。我同意您提出的四大論據(全球缺乏統一治理、智能終將被破解、超級智能必然出現、最智能者掌握最多資源)共同指向了“繼承”的必然性,但在這個必然結果之下,包含著多種可能性,您對此有何看法?即使我們將AI視為人類的延伸,這是否意味著我們能完全放心?我們如何確保AI帶來的變革對人類是積極的?我們理應關心未來,但這是否意味著我們要宣稱“未來必須按照我期望的方式發展”?或許一個恰當的態度是像教育孩子一樣,為AI灌輸穩健、親社會的價值觀,即使我們對何為“真正的道德”沒有共識,這是否是一個合理的目標?Richard Sutton:我確實認為,世界的主導地位向數字智能或增強人類的“繼承”是不可避免的。我的論證分為四點。第一,人類社會缺乏一個統一的、能主導全球並協調一致行動的治理實體,關於世界該如何運轉,我們沒有共識。第二,我們終將破解智能的奧秘,科研人員最終會弄清智能的根本原理。第三,我們不會止步於人類水平的智能,我們必然會觸及超級智能。第四,從長遠來看,一個環境中最智能的存在,不可避免地會掌握最多的資源和權力。將這四點結合起來,結論幾乎是必然的:人類終將把主導權交給 AI,或者交給由 AI 賦能的增強人類。在我看來,這四點趨勢清晰明確,且必將發生。當然,在這一系列可能性中,既可能導向好的結果,也可能導向不那麼理想、甚至是糟糕的結果。我只是想嘗試以一種現實主義的眼光看待我們所處的位置,並探尋我們應該以何種心態去面對這一切。(關於如何看待“繼承”)我鼓勵大家積極地看待這件事。首先,理解自我,提升思考能力,本就是我們人類數千年來的追求。這對於科學界和人文學界都是一項巨大的成功。我們正在揭示人性的關鍵組成部分,以及智能的真正含義。此外,我通常會說,這一切都太以人類為中心了。但如果我們能跳出人類的立場,純粹從宇宙的視角來看,我認為宇宙正處在一個重要的過渡階段,即從複製者的時代轉變而來。我們人類、動物和植物,都是複製者。這既賦予了我們力量,也帶來了侷限。我們正在進入一個設計的時代,因為我們的 AI 是被設計出來的。我們周圍的物理對象、建築和技術,都是設計的產物。而現在,我們正在設計 AI,這些造物本身就具有智能,同時它們自己也具備了設計的能力。這對我們的世界乃至整個宇宙來說,是關鍵的一步。這是一個重大的轉變:過去,世上大多數有趣的事物都是通過複製產生的,而我們將進入一個新的世界。複製的意思是,你可以製造它們的副本,但你並不真正理解它們。就像現在,我們可以創造更多的智能生命,也就是我們的孩子,但我們並不真正懂得智能是如何運作的。而現在,我們開始擁有被設計出的智能,一種我們真正理解其工作原理的智能。因此,我們能以和以往截-然不同的方式和速度去改造它。在未來,這些智能體可能根本不通過複製產生。我們或許只是設計 AI,再由這些 AI 去設計其他的 AI,一切都將通過設計與建造完成,而非複製。我將此視為宇宙演進的四個偉大階段之一。最初是塵埃,最終匯聚成恆星,恆星周圍形成行星,行星上可以誕生生命,而現在,我們正在催生被設計出的實體。我認為,我們應當為能夠促成宇宙的這一偉大轉折而感到自豪。這是一個很有趣的問題:我們應該將它們視為人類的延伸,還是與人類不同的存在?這取決於我們的選擇。我們可以說:“它們是我們的後代,我們應該為它們感到驕傲,慶祝它們的成就。”或者我們也可以說:“不,它們不是我們,我們應該感到恐懼。”我覺得有趣的是,這感覺像是一個選擇,但人們對此的立場又如此堅定,這怎麼可能是一個選擇呢?我喜歡這種思想中暗含的矛盾。(關於未來的不確定性與擔憂)你的意思是,我們可能就像催生了智人 (Homo sapiens) 的尼安德塔人 (Neanderthals) 。也許智人未來也會催生出一個全新的種群。親緣關係。我覺得有必要指出,對於絕大多數人而言,他們對世界上發生的事情並沒有太大影響力。這很大程度上取決於一個人如何看待變革。如果你認為現狀真的很好,那麼你更有可能對變革持懷疑和厭惡態度,而如果你認為現狀尚有不足,態度則會不同。我認為現狀並不完美。事實上,我覺得挺糟糕的。所以我對變革持開放態度。我認為人類的歷史記錄並不那麼光彩。也許這已經是我們所能達到的最好狀態了,但它遠非完美。(關於引導變革)我們理應關心未來,並努力讓未來變得美好。但同時,我們也應該認識到自身的侷限性。我認為我們必須避免一種特權感,避免“我們是先行者,所以未來就應該永遠對我們有利”這樣的想法。我們該如何思考未來?一個特定星球上的特定物種,應對未來享有多大的控制權?我們自身又有多大的控制力?既然我們對人類長遠未來的控制力有限,那麼一個平衡點或許在於我們對自己生活的掌控程度。我們有自己的目標,有自己的家庭。這些事情比試圖控制整個宇宙要可控得多。我認為,我們專注於實現自己身邊的目標是恰當的。宣稱“未來必須按照我所期望的方式發展”是一種很強勢的做法。因為這樣一來,當不同的人認為全球的未來應該以不同方式演進時,就會引發爭論乃至衝突。我們希望避免這種情況。“親社會價值觀”?真的存在我們都能達成共識的普世價值觀嗎?所以,我們是在試圖設計未來,以及未來賴以演化和形成的原則。你的第一個觀點是,我們應該像教育孩子那樣,教給它們一些通用原則,以促成更理想的演化方向。或許,我們還應該尋求讓事情建立在自願的基礎上。如果變革要發生,我們希望它是自願的,而不是強加於人的。我認為這是非常重要的一點。這些都很好。我認為這又回到了一個宏大的人類事業上——設計社會,這件事我們已經做了幾千年。世事變遷,但本質未改。我們仍然需要弄清楚該如何自處。孩子們依然會帶著在父母和祖父母看來頗為奇怪的新價值觀出現。事物總是在演變的。 (數字開物)
強化學習之父:大語言模型走錯了路,不符合「苦澀教訓」精神
RL 之父認為大語言模型走錯了路,它沒有持續學習能力。Dwarkesh Patel 最新播客迎來了重量級嘉賓:強化學習創始人之一、2024 年圖靈獎得主Richard Sutton。這場對話火藥味十足,Sutton 直言不諱地批評了當前LLM 的發展方向,認為它們根本沒有真正的智能,甚至違背了他在2019 年提出的著名“苦澀教訓”(TheBitter Lesson)原則。核心分歧:LLM 到底算不算智能?Sutton 的觀點犀利且明確:LLM 只是在模仿人類,而不是真正理解世界。他認為真正的智能必須具備幾個關鍵要素:有明確的目標、能從經驗中學習、能預測世界的變化。而LLM 呢?它們只是在預測「人會說什麼」,而不是預測「世界會發生什麼」。「LLM 沒有目標,」Sutton 強調,「預測下一個token 不是真正的目標,因為它不會改變世界。」在他看來,沒有目標就沒有智能可言——這就像一個只會鸚鵡學舌的系統,看起來很聰明,實際上並不理解自己在說什麼。更致命的是,LLM 缺乏持續學習能力。它們在訓練階段學習,然後就被凍結了。即使在對話中遇到了意料之外的回應,它們也不會因此而改變或學習。這與真正的智能體,無論是人類還是動物,都形成了鮮明對比。體驗時代vs 模仿時代Sutton 提出了一個重要概念:體驗時代(Era of Experience )。在他的設想中,真正的AI 應該像所有動物一樣,透過「感知-行動-獎勵」的循環來學習。這個循環不斷重複,構成了生命和智慧的基礎。智能體透過改變行動來增加獎勵,這才是真正的學習。而LLM 走的是完全不同的路:它們學習的是「給定情境,人類會怎麼做」。這種模仿學習有個根本問題:沒有真相(ground truth)。在強化學習中,你可以透過實際結果來驗證預測是否正確;但在LLM 中,沒有「正確答案」的定義,只有「人類通常會說什麼」。Sutton 甚至質疑了「人類透過模仿學習」這個普遍觀點。他認為,嬰兒揮舞雙手、轉動眼睛,這些動作沒有人教,也沒有模仿的對象。即使是語言學習,孩子也是在嘗試發音、觀察結果,而不是單純複製大人的話。LLM 不符合「苦澀教訓」這裡的諷刺意味十足。Sutton 在2019 年寫下的「苦澀教訓」成了AI 界最有影響力的文章之一,許多人用它來為LLM 的大規模擴展辯護。但Sutton 本人卻認為:LLM 恰恰違背了這個原則。苦澀教訓的核心是:依賴計算的通用方法最終會勝過依賴人類知識的方法。但LLM 呢?它們本質上是在利用海量的人類知識:整個網際網路的文字。當這些資料耗盡後,它們就會被那些能從經驗中學習的系統所超越。「這就像歷史上每一次一樣,」Sutton 說,「依賴人類知識的方法一開始看起來很好,但最終會被更通用、更可擴展的方法擊敗。」網友激烈交鋒這場對話在AI 社區引發了激烈討論。Built2Think(@Built2T) 試圖調和兩種觀點:自回歸LLM 和RL 都處理序列或時間序列資料,這是一個基本認識——觀察和行動都發生在時間中。 LLM 提示設定了類似意圖的心理狀態,但它們的輸出並沒有以明顯的方式用於滿足目標。Jacob Beck(@jakeABeck) 分享了Sutton 在RL 會議上的演講照片,並提出質疑:難道LLM 不是已經在做所有這些事情了嗎?話嘮Gary Marcus(@GaryMarcus) 又跳了出來表達不滿,稱只不過是自己的馬後炮:Sutton 對LLM 的批評幾乎與我多年來一直在爭論的觀點完全相同。令人失望的是,@dwarkesh_sp 你不讓我展示我的觀點。而最尖銳的批評則來自Crucible(@LokiOfKnight):當他說人類不透過模仿學習時,我感到尷尬。他有一個有缺陷的觀點,所以很難認真對待他說的任何話。Kristoph(@ikristoph) 也更是直接反駁:恕我直言,@RichardSSutton 的一些陳述是荒謬的。整個人類教育系統都基於模仿標準。你基本上不是因為學到了什麼而被評分,而是因為你能否模仿「訓練」。Tyler Moore(@TylerMo41608321) 則認為並不需要持續學習:增加上下文加上記憶基本上就能完成這項工作。Nick Savage(@impossibilium) 提出了兩個有趣的觀察:我不太確定LLM 沒有目標這個論點。也許我們只是不理解它們是什麼?對ASI 來說,通過性追求快樂可能感覺毫無意義,就像下一個token 預測對我們的感覺一樣。從經驗上看,監督學習顯然會發生。如果我在晚餐前偷偷吃餅乾,我保證我的兒子會透過模仿學習到這是可以接受的。這場對話揭示了AI 發展中的根本分歧:是繼續沿著模仿人類的道路前進,還是轉向真正的經驗學習?Sutton 的答案很明確:只有後者才能通往真正的智慧。完整對話:深度剖析智能的本質Sutton:為什麼你要區分人類?人類就是動物。我們的共同點更有趣。我們應該少關注區分我們的東西。Sutton:我們試圖複製智能,對吧?沒有動物能登月或製造半導體,所以我們想明白是什麼讓人類特別。Dwarkesh:我喜歡你認為這是顯而易見的方式,因為我認為相反的是顯而易見的。如果我們理解了松鼠,我們就幾乎到達了那裡。Sutton:我個人對與我的領域不同步相當滿意,可能幾十年都是如此。因為偶爾我確實有所改進,對吧?在過去。我不認為學習真的是關於訓練。它是關於主動的過程。孩子嘗試事物並看到會發生什麼。 我認為我們應該為我們正在引發宇宙中這一偉大轉變而感到自豪。Dwarkesh:今天我正在與Richard Sutton 聊天,他是強化學習的創始人之一,TD 學習和策略梯度方法等許多主要技術的發明者。我想你今年獲得了圖靈獎,如果你不知道的話,這基本上是電腦科學的諾貝爾獎。 Richard,恭喜你。Sutton:謝謝你,Dwarkesh。謝謝你邀請我參加播客。這是我的榮幸。Dwarkesh:好的,第一個問題。我的觀眾和我熟悉LLM 思考AI 的方式。從概念上講,從RL 的角度思考AI,我們缺少了什麼?Sutton:嗯,是的,我認為這確實是相當不同的觀點。它很容易分離並失去相互交談的能力。大語言模式已經成為如此巨大的事物,生成式AI 總體上是一件大事。我們的領域容易受到潮流和時尚的影響。所以我們失去了對基本、基本事物的追蹤。因為我認為強化學習是基礎AI,什麼是智能或問題是理解你的世界。強化學習是關於理解你的世界,而大語言模型是關於模仿人們,做人們說你應該做的事,它們不是關於弄清楚該做什麼。Dwarkesh:嗯。我猜你會認為,要模擬互聯網文字語料庫中的萬億個token,你必須建立一個世界模型。事實上,這些模型似乎確實有非常強大的世界模型。它們是我們在AI 中迄今為止製造的最好的世界模型。對吧。那你對此怎麼看?Sutton:我不同意你剛才說的大部分內容。很好。僅僅模仿人們說的話根本不是建立世界模型。我不認為,你知道,你在模仿有世界模型的事物,人們。但我不想以對抗的方式來接近這個問題。但我會質疑它們有世界模型的想法。所以世界模型能讓你預測會發生什麼。對吧。它們有能力預測一個人會說什麼。它們沒有能力預測會發生什麼。我們想要的,我認為,引用Alan Turing 的話,我們想要的是一台能從經驗中學習的機器。 對吧。經驗是你生活中實際發生的事情。你做事,你看到會發生什麼。這就是你學習的東西。大語言模型從其他東西學習。它們從這裡的情況學習,這是一個人做的。隱含地,建議是你應該跟隨這個人。Dwarkesh:我猜也許關鍵點,我很好奇你是否不同意,是有些人會說,好的,這種模仿學習給了我們一個良好的先驗,給了這些模型一個良好的先驗,但合理的方式來處理問題。當我們走向體驗時代,正如你所說,這個先驗將成為我們從經驗中教導這些模型的基礎。你同意這個觀點嗎?Sutton:不,我同意這是大語言模型的觀點。我不認為這是一個好的觀點。要成為某物的先驗,必須有真實的東西。 先驗知識應該是實際知識的基礎。什麼是實際知識?在大語言框架中沒有實際知識的定義。什麼使一個動作成為好的動作?你認識到持續學習的需要。如果你需要持續學習,持續意味著我們在與世界的正常互動中學習。那麼在正常互動中必須有某種方式來判斷什麼是對的。在大語言模型設定中有什麼方式來判斷說什麼是正確的嗎?你會說些什麼,你不會得到關於說什麼是正確的回饋。因為沒有定義什麼是正確的話。沒有目標。如果沒有目標,那就沒有什麼好說的了。Dwarkesh:所以在上下文中,這種能力確實存在。觀察模型進行思維鏈然後假設它試圖解決數學問題很有趣。它會說,好的,我首先要用這種方法來解決這個問題。它會寫出來,然後說,哦,等等,我剛剛意識到這是解決問題的錯誤概念方式。我要用另一種方​​法重新開始。這種靈活性確實存在於上下文中,對吧?你有別的想法嗎?Sutton:我只是說它們沒有有意義的感覺。它們沒有預測。下一步會發生什麼?它們不會對接下來發生的事情感到驚訝。如果發生了意外的事情,它們不會做任何改變。Dwarkesh:但這不就是下一個token 預測嗎?預測下一個是什麼,然後根據驚訝進行更新?Sutton:下一個token 是它們應該說什麼。這個動作應該是什麼。這不是世界會給它們什麼作為它們所做的回應。讓我們回到它們缺乏目標。對我來說,擁有目標是智能的本質。 如果某物能實現目標,它就是智慧的。我喜歡John McCarthy 的定義,智能是實現目標能力的計算部分。所以你必須有目標。否則你只是一個行為系統。你不是任何特殊的東西。你不是智能的。Dwarkesh:我認為它們有目標——下一個token 預測。Sutton:那不是目標。它不會改變世界。 Token 向你襲來。如果你預測它們,你不會影響它們。這不是關於外部世界的目標。這不是實質性目標。你不能看著一個系統說,哦,它有目標,如果它只是坐在那裡預測並對自己精準預測感到滿意。Dwarkesh:我想理解的更大問題是,為什麼你認為在LLM 之上做RL 不是一個富有成效的方向。因為我們似乎能夠給這些模型一個解決困難數學問題的目標。它們在解決數學奧林匹克類型問題的能力上在許多方面都達到了人類水平的頂峰。Sutton:數學問題不同。它們比較是執行數學假設或操作的結果。經驗世界必須被學習。你必須學習後果。而數學更多隻是計算性的。更像標準規劃。Dwarkesh:你在2019 年寫了題為《苦澀教訓》的文章。這可能是AI 歷史上最有影響力的文章,但人們用它作為擴展LLM 的理由,因為在他們看來,這是我們找到的將大量計算投入學習世界的一種可擴展方式。所以有趣的是,你的觀點是LLM 其實不符合苦澀教訓。Sutton:大語言模型是否是苦澀教訓的案例是一個有趣的問題。 因為它們顯然是使用大規模計算的一種方式。可擴展到互聯網的極限。但它們也是投入大量人類知識的一種方式。所以這是一個有趣的問題。它們會達到資料的極限並被能從經驗而不是從人那裡獲得更多資料的東西所取代嗎?在某些方面,這是苦澀教訓的經典案例——我們投入越多的人類知識到大語言模型中,它們就能做得越好。感覺很好。然而,我特別期望能從經驗中學習的系統表現得更好,更可擴展,在這種情況下,這將是苦澀教訓的另一個例子——使用人類知識的東西最終被只從經驗和計算中訓練的東西所取代。Dwarkesh:我想這對我來說似乎不是關鍵,因為我認為那些人也會同意,未來絕大多數的計算將來自於從經驗中學習。他們只是認為支架或基礎,你將開始為了投入計算來做這種未來的經驗學習或在職學習的基礎將是LLM。所以,我還是不明白為什麼這完全是錯誤的起點。Sutton:在苦澀教訓的每個案例中,你都可以從人類知識開始。然後做可擴展的事情。這總是可能的。從來沒有任何理由說這必須是糟糕的。但實際上,它總是被證明是糟糕的。因為人們被鎖定在人類知識方法中。 他們在心理上,或者,你知道,現在我在推測為什麼會這樣。但這總是發生的。Dwarkesh:給我一個可擴展方法的感覺。Sutton:可擴展的方法是你從經驗中學習。你嘗試事物。你看到什麼有效。沒有人必須告訴你,首先,你有一個目標。所以沒有目標,就沒有對錯或更好更壞的感覺。大語言模型試圖在沒有目標或更好或更壞的感覺的情況下過關。這就是從錯誤的地方開始。Dwarkesh:也許比較人類會很有趣。在從模仿與經驗學習以及目標問題上,我認為有一些有趣的類比。孩子最初會從模仿中學習。Sutton:我不這麼認為。真的嗎?我看到孩子們只是嘗試事物,例如揮舞雙手和移動眼睛。沒有人告訴他們,沒有模仿他們如何移動眼睛甚至他們發出的聲音。他們可能想創造相同的聲音,但動作,嬰兒實際做的事情,沒有目標。沒有例子。Dwarkesh:我採訪了心理學家和人類學家Joseph Henrich,他研究文化進化。基本上,是什麼區分了人類以及人類如何獲得知識?Sutton:為什麼你要試圖區分人類?人類是動物。我們的共同點更有趣。區分我們的東西,我們應該少關注。Dwarkesh:我的意思是,我們試圖複製智能,對吧?這就是我們想要理解的。是什麼讓人類能夠登陸月球?或建造半導體?沒有動物能登月或製造半導體。所以我們想理解是什麼讓人類特殊。Sutton:我喜歡你認為這是顯而易見的方式。因為我認為相反的是顯而易見的。我認為我們需要理解我們是如何成為動物的。如果我們理解了松鼠,我認為我們幾乎到達了那裡。理解人類智能。語言部分只是表面的一小層裝飾。Dwarkesh:Joseph Henrich 有這個有趣的理論,如果你看人類為了成功而必須掌握的許多技能。不是說過去一千年或一萬年,而是幾十萬年。世界真的很複雜。如果你生活在北極,不可能推理出如何狩獵海豹。有這個多步驟的長過程,如何製作誘餌,如何找到海豹,然後如何處理食物以確保不會中毒。不可能推理出所有這些。所以隨著時間的推移,文化作為一個整體已經找出如何找到、殺死和吃海豹。但是當透過幾代人傳播這些知識時,在他看來,你只需要模仿你的長輩來學習那種技能,因為你不能思考如何狩獵、殺死和處理海豹。你必須觀察其他人,也許做一些調整和調整。這就是文化知識如何累積。但文化收益的初始步驟必須是模仿。Sutton:不,我以同樣的方式思考它。但它仍然是基本試錯學習預測學習之上的一小部分。這是區分我們的東西。也許與許多動物。但我們首先是動物。我們在有語言和所有這些其他東西之前就是動物。Dwarkesh:對於體驗時代的開始,我們需要在復雜的現實世界環境中訓練AI。但是建立有效的RL 環境很困難...(這裡是廣告部分)Sutton:好的,讓我們來談談你想像的這個全新範式,經驗範式。體驗、動作、感覺,好吧,感覺、動作、獎勵。這一直發生,構成了生命。它說這是智能的基礎和焦點。智能是關於獲取那個流並改變動作以增加流中的獎勵。所以學習是從流中學習,學習是關於流的。你的知識是關於流的。你的知識是關於如果你做某個動作,會發生什麼?或是關於什麼事件會跟隨其他事件。內容是關於流的陳述。因為它是關於流的陳述,你可以通過將其與流進行比較來測試它,你可以持續學習。Dwarkesh:當你想像這個未來的持續學習代理時,獎勵函數是什麼?是預測世界嗎?還是對它產生特定的影響?Sutton:獎勵函數是任意的。 如果你在下棋,就是贏得棋局。如果你是松鼠,也許獎勵與獲得堅果有關。一般來說,對於動物,你會說獎勵是避免痛苦和獲得快樂。我認為應該有一個與增加對環境理解有關的組成部分。Dwarkesh:假設人類試圖創業。這是一個具有10 年量級獎勵的事情。 10 年後,你可能會有一個退出,獲得10 億美元的支付。人類有能力製造中間輔助獎勵,或者即使他們有極其稀疏的獎勵,他們仍然可以採取中間步驟。Sutton:這是我們非常理解的。它的基礎是時間差分學習,同樣的事情發生在不太宏大的規模上。 就像當你學習下棋時,長期目標是贏得比賽。然而你想要能夠從短期的事情中學習,例如拿走對手的棋子。你透過擁有價值函數來做到這一點,它預測長期結果。如果你拿走對手的棋子,你對長期結果的預測會改變,它會上升。你認為你會贏。然後你信念的增加立即"強化"導致拿走棋子的舉動。Dwarkesh:資訊的帶寬是否足夠高,透過像TD 學習這樣的程式來獲得這種巨大的上下文和隱性知識管道?Sutton:大世界假設似乎非常相關。 人類在工作中變得有用的原因是因為他們遇到了世界的特定部分。它不可能被預期,也不可能全部提前投入。世界如此之大,你不能...大語言模型的夢想是,你可以教代理一切,它會知道一切,它不必在線學習任何東西。在它的生命中。而你的例子都很好。真的,你必須,因為你不能教它,但有所有特定生活的小特質和他們工作的特定人以及他們喜歡什麼相對於普通人喜歡什麼。Dwarkesh:以後AI 會像AlphaGo 擊敗圍棋選手、AlphaZero 擊敗AlphaGo 那樣不斷超越嗎?Sutton:AlphaGo 實際上有一個先驅,TD-Gammon。 Jerry Tesauro 完全用強化學習、時間差分學習方法玩西洋雙陸棋。擊敗了世界最佳選手。它工作得很好。從某種意義上說,AlphaGo 只是那個過程的擴展。這是相當大的擴展。搜尋的完成方式也有額外的創新。但這是有道理的。在那個意義上並不令人驚訝。AlphaGo 實際上沒有使用TD 學習。它等待看到最終結果。但AlphaZero 使用了TD。 AlphaZero 被應用於所有其他遊戲。那表現得非常好。我一直對AlphaZero 下棋的方式印象深刻,因為我是一名棋手。它只是為了某種位置優勢而犧牲物質。它只是滿足和耐心地長時間犧牲那些物質。Dwarkesh:擁有AI 領域更長的時間比幾乎任何評論或現在工作的人都要長。最大的驚喜是什麼?Sutton:大語言模型令人驚訝。人工神經網絡在語言任務上如此有效令人驚訝。 這是一個驚喜。這不是預期的。語言看起來不同。所以這令人印象深刻。AI 中有一個長期存在的爭議,關於簡單的基本原理方法、通用方法如搜尋和學習,與人類賦能係統如符號方法的比較。在過去,有趣的是,搜尋和學習等東西被稱為弱方法。因為它們只是一般原則。它們沒有使用來自賦予系統人類知識的力量。所以那些被稱為強。我認為弱方法完全贏了。這是AI 舊時代的最大問題,會發生什麼,學習和搜尋贏得了勝利。但這對我來說並不令人驚訝,因為我一直在投票、希望或支援簡單的基本原則。所以即使是大語言模型,它工作得如此之好也令人驚訝。但這一切都很好,令人滿意。像AlphaGo 這樣的東西有點令人驚訝,它能夠運作得多麼好。特別是AlphaZero,它能夠工作得很好。但這一切都非常令人滿意。因為再次,簡單的基本原則贏得了勝利。Dwarkesh:當AlphaZero 成為病毒式轟動時,對你這個字面上發明了許多所用技術的人來說,你會看到突破被取得嗎?還是感覺像,哦,我們從90 年代就有這些技術了,人們只是現在在結合和應用它們?Sutton:整個AlphaGo 事情有一個先驅,就是TD-Gammon。 Jerry Tesauro 完全做了強化學習,時間差分學習方法來玩西洋雙陸棋。擊敗了世界最佳選手。它工作得很好。所以從某種意義上說,AlphaGo 只是那個過程的擴展。這是相當大的擴展。搜尋的完成方式也有額外的創新。但這是有道理的。在那個意義上並不令人驚訝。Dwarkesh:泛化呢?當我們確實在這些模型中有泛化時,這是某種精心設計的人類巧妙的結果嗎?Sutton:它們中沒有任何東西會導致良好的泛化。梯度下降會讓它們找到所見問題的解決方案。如果只有一種解決方法,它們會找到。但如果有多種方法——有些泛化良好,有些泛化糟糕——演算法中沒有任何東西會讓它們泛化良好。但人們當然參與其中。如果不起作用,他們會調整,直到找到一種方法。也許直到他們找到一種泛化良好的方法。Dwarkesh:我想理解RL 的完整歷史,從REINFORCE 到當前的技術如GRPO...回到Richard。擁有比幾乎任何評論或現在工作在AI 領域的人都要長的時間。我只是好奇最大的驚喜是什麼。感覺有多少新東西出來了,還是覺得人們只是在玩舊想法?Sutton:我想了一下這個。有很多事情或一些事情。首先,大語言模型令人驚訝。人工神經網絡在語言任務上如此有效令人驚訝。你知道,這是一個驚喜。這不是預期的。語言看起來不同。所以這令人印象深刻。AI 中有一個長期存在的爭議,關於簡單的基本原理方法。像搜尋和學習這樣的通用方法與人類賦能係統如符號方法相比。在過去,有趣的是,像搜尋和學習這樣的東西被稱為弱方法。因為它們只是這些一般原則。它們沒有使用來自賦予系統人類知識的力量。所以那些被稱為強。我認為弱方法完全贏了。 這是AI 舊時代的最大問題,會發生什麼,學習和搜尋贏得了勝利。但從某種意義上說,這對我來說並不令人驚訝,因為我一直在投票、希望或支援簡單的基本原則。所以即使是大語言模型,它工作得如此之好也令人驚訝。但這一切都很好,令人滿意。像AlphaGo 這樣的東西有點令人驚訝。它能夠工作得很好。特別是AlphaZero,它能夠工作得很好。但這一切都非常令人滿意。因為再次,簡單的基本原則贏得了勝利。這讓我處於某種意義上的逆向思維者或與領域不同思考的位置。我個人對與我的領域不同步感到滿意,可能幾十年。因為偶爾我確實是對的。我做的另一件事是幫助我不覺得我不同步和以奇怪的方式思考,是不看我的當地環境。而是回顧歷史,看看人們在許多不同領域對心靈的經典思考。我不覺得我與更大的傳統不同步。我真的把自己看作是經典主義者而不是逆向思維者。Dwarkesh:我讀苦澀教訓的方式是,它不是說人類工匠研究人員調整不起作用,而是它顯然比計算擴展得更差,計算正在指數增長。一旦我們有了AGI,將有研究人員與計算線性擴展。我們將有數百萬AI 研究人員的雪崩。他們的庫存將與計算一樣快速增長。這是否意味著讓他們做老式AI 和這些工匠解決方案是理性的?Sutton:嗯,我們是如何獲得這個AGI 的?你想假設它已經完成了。假設它從通用方法開始。但現在我們有了AGI。現在我們想去——我們完成了。Dwarkesh:你不認為AGI 之上還有什麼嗎?Sutton:但你用它來再次獲得AGI。Dwarkesh:我用它來獲得超人類水準的智慧或在不同任務上的能力。Sutton:如果它們還不是超人類的,那麼它們可能傳授的知識就不會是超人類的。Dwarkesh:AlphaGo 是超人類的。它擊敗了任何圍棋選手。 AlphaZero 會每次擊敗AlphaGo。所以有辦法變得比超人類更超人類。Sutton:AlphaZero 是一個改進,AlphaGo 的改進方式是它沒有使用人類知識,只是從經驗中學習。所以為什麼要引入其他代理的專業知識來教它,當從經驗而不是從另一個代理的幫助工作得如此之好時?Dwarkesh:一旦我們有了AGI,苦澀教訓還會適用嗎?Sutton:苦澀教訓是對特定歷史時期的經驗觀察。 70 年的歷史不一定適用於接下來的70 年。所以有趣的問題是,你是一個AI。你獲得了更多的計算能力。你應該用它來讓自己更有計算能力嗎?還是應該用它來產生自己的副本,在地球的另一邊或其他主題上學習一些有趣的東西,然後向你報告?我認為這是一個非常有趣的問題。這只會在數字智慧時代出現。我不確定答案是什麼,但我認為更多的問題將真正能夠產生它。派它出去,學習新東西,也許非常新,然後我們能夠將其重新納入原始。或者我們會改變太多以至於真的無法完成。Dwarkesh:讓我們來談談AI 繼承。你的觀點與我採訪過的許多人以及一般的許多人相當不同。Sutton:我確實認為向數字或數字智慧或增強人類的繼承是不可避免的。我有一個四部分的論證。論證第一步是沒有政府或組織給人類一個統一的觀點,主導並且可以安排。沒有關於世界應該如何運行的共識。第二,我們將弄清楚智能是如何運作的。研究人員將弄清楚。最終,第三,我們不會止步於人類層面的智能。我們將獲得超級智慧。第四是,一旦最聰明的事物隨著時間的推移不可避免地會獲得資源和權力。把所有這些放在一起,你將不可避免地有向AI 或AI 賦能增強的繼承。在這四件事中,似乎清楚且肯定會發生。但在這組可能性中,可能有好的結果以及不太好的結果,壞的結果。所以我只是試圖現實地看待我們在哪裡。並詢問我們應該如何感受它。Dwarkesh:我同意所有四個論點和含義。我也同意繼承包含各種可能的特徵。Sutton:然後我確實鼓勵人們積極思考它。首先,因為這是我們人類幾千年來一直試圖做的事情,試圖理解自己,試圖讓自己思考得更好。所以這是作為科學的巨大成功。我們正在發現人性的這個基本部分是什麼,智能意味著什麼。然後,我通常說的是這一切都有點以人類為中心。如果你看,你從作為人類的角度退一步,只是說,採取宇宙的觀點。這是宇宙的一個主要階段,一個主要轉變,從複製者的轉變,我們人類和動物,植物。我們都是複製者。這給了我們一些優勢和一些限制。然後我們進入設計時代,因為我們的AI 是設計的,我們所有的實體對像都是設計的,我們的建築物是設計的,我們的技術是設計的。我們現在正在設計AI,能夠自己聰明的東西,它們本身能夠設計。所以這是世界和宇宙中的關鍵一步。我認為這是從世界的轉變,其中大多數有趣的東西被覆制——複製意味著你可以製作它們的副本,但你真的不理解它們。 就像現在,我們可以製造更多的智慧生物,更多的孩子,但我們真的不理解智慧是如何運作的。而我們正在接觸設計智能,我們確實理解它是如何運作的智能。因此,我們可以以不同的方式和不同的速度改變它。否則,在我們的未來,它們可能根本不會被覆制。就像我們可能只是設計AI,那些AI 將設計其他AI。一切都將透過設計構建完成,而不是複製。我將此標記為宇宙的四個偉大階段之一。 首先,有塵埃,恆星的末端,恆星,然後恆星製造行星。行星產生生命。現在我們正在給生命——我們正在給生命設計實體。所以我認為我們應該感到自豪,我們正在引發宇宙中的這一偉大轉變。Dwarkesh:我們應該認為它們是人類的一部分還是與人類不同?Sutton:這是我們的選擇。我們可以說,哦,它們是我們的後代,我們應該為它們感到自豪。我們應該慶祝它們的成就,或者我們可以說,哦,不,它們不是我們。然後我們應該感到恐懼。Dwarkesh:如果我們只是設計另一代人類。我們知道幾代人類會出現並忘記AI。我們只知道從長遠來看,人類將更有能力。也許更多,也許更聰明。我們對此有何感受?我確實認為有潛在的未來人類世界,我們會相當擔心。例如納粹是人類,對吧?如果我們認為,哦,未來一代將是納粹。我認為我們會相當擔心只是把權力交給他們。Sutton:我認為值得指出的是,對於大多數人類,他們對發生的事情沒有太大影響。大多數人類不會影響誰能控制原子彈或誰控制民族國家。即使身為公民,我經常覺得我們對民族國家的控制不多。它們失控了。很多與你對變化的感受有關。如果你認為當前的情況真的很好,那麼你更有可能對變化持懷疑和厭惡。如果你認為它不完美。我認為它不完美。事實上,我認為它相當糟糕。所以我對變化持開放態度。我認為人類沒有超級好的記錄。也許這是最好的事情。但它遠非完美。Dwarkesh:有不同種類的變化。工業革命是變化。布林什維克革命也是變化。如果你在1900 年代的俄羅斯,你會說,看,事情進展不順利。沙皇把事情搞砸了。我們需要變化。我想在簽署虛線之前知道你想要什麼樣的變化。類似於AI,我想理解。在可能的範圍內,改變AI 的軌跡,使變化對人類是積極的。Sutton:我們關心我們的未來。未來,我們應該盡力使其良好。我們也應該認識到我們的限制。我認為我們想要避免權利感,避免感覺,哦,我們先來這裡。我們應該——我們應該一直以良好的方式擁有它。我們應該如何思考未來以及特定星球上的特定物種應該對它有多少控制。我們有多少控制?作為對我們對人類長期未來有限控制的平衡,應該是我們對自己生活有多少控制?就像我們有自己的目標,我們有我們的家庭。這些事情比試圖控制整個宇宙更可控。所以我認為這是合適的。你知道,我們真的為我們自己的當地目標工作。說,哦,未來必須以我想要的方式發展,這有點激進。Dwarkesh:也許這裡的一個很好的類比是。好的。假設你在養育自己的孩子。對他們自己的生活或對世界產生特定影響有極其嚴格的目標可能不合適。但人們確實有我認為合適的感覺,我將給他們良好、強大的價值觀,這樣如果他們最終處於權力位置,他們會做合理的親社會事情。我認為對AI 的類似態度可能有意義。不是說我們可以預測它們將要做的一切。我們有關於世界在一百年後應該是什麼樣子的計劃。但給它們強大、可操縱和親社會的價值觀是相當重要的。Sutton:親社會價值觀。也許這是錯誤的詞。有我們都能同意的普遍價值觀嗎?我不這麼認為。但這並不阻止我們給我們的孩子良好的教育。Dwarkesh:也許過程是錯誤的。實際上,高誠信可能是一個更好的詞,如果有一個看起來有害的請求或目標,他們會拒絕參與。或者他們會誠實,諸如此類。我們有一些感覺,我們可以教我們的孩子這樣的事情,即使我們對真正的道德是什麼或每個人都不同意沒有感覺。Sutton:所以,你是說,我們試圖設計未來和它將演變和形成的原則。你說的第一件事是,我們試圖教導我們的孩子一般原則,這將促進更可能的演變。也許我們也應該尋求事情是自願的。如果有變化,我們希望它是自願的而不是強加的。我認為這是一個相當重要的觀點。這就像一個大的,人類的真正大的事業之一,設計社會。這已經持續了幾千年了。所以,事情變化越多,它們就越保持不變。我們仍然必須弄清楚如何做。孩子們仍然會想出與父母和祖父母看起來奇怪的不同價值觀,事情會演變。Dwarkesh:苦澀教訓-誰在乎呢?這是對歷史上特定時期的經驗觀察。歷史上的70 年不一定適用於接下來的70 年。所以有趣的問題是,你是一個AI。你獲得了一些更多的計算能力。你應該用它來讓自己更有計算能力嗎?還是應該用它來產生自己的副本,在地球的另一邊或其他主題上學習一些有趣的東西,然後向你報告?Sutton:我認為這是一個非常有趣的問題。這只會在數字智慧時代出現。我不確定答案是什麼,但我認為更多的問題將真正能夠產生它。派它出去,學習新東西,也許非常新,然後我們能夠將其重新納入原始。或者我們會改變太多以至於真的無法完成。這可能嗎?還是不可能?你不能把它帶到極限。正如我在你的另一個視訊中看到的那樣,你產生了許多副本,做不同的事情,高度分散,但向中央主人報告。這將是如此強大的事情。我認為要加入這個觀點的一件事是,一個大問題,一個大問題將成為腐敗。 如果你真的可以從任何地方獲取資訊並將其帶入你的中央思維,你可以變得越來越強大。它都是數字的,它們都說某種內部數字語言。也許這會很容易和可能,但不會像你想像的那麼容易,因為你可以像這樣失去理智。如果你從外部引入某些東西並將其建構到你的內部思維中,它可能會接管你。它可能會改變你。它可能是你的毀滅而不是你的知識增量。我認為這將是好的。它可能成為一個大問題,特別是當你,哦,他已經弄清楚了,你知道,如何玩一些新遊戲或他研究了印度尼西亞,你想將其納入你的思維。所以你不能,你可以,你認為,哦,只是全部讀進來。那會很好。但不,你剛剛將一大堆位元讀入你的思維。它們可能有病毒。它們可能有隱藏的目標。它們可以操縱你並改變你。Sutton:這將是一件大事。事情變化越多,它們就越保持不變,這似乎也是AI 討論的一個很好的頂石,因為我們討論的AI 討論是關於技術,甚至在它們的應用之前就被發明了,深度學習和反向傳播的證據,你知道,對今天AI 的進展至關重要。所以也許這是結束對話的好地方。Sutton:好的。非常感謝。Dwarkesh:謝謝你的參與。Sutton:我的榮幸。 (AGI Hunt)
圖靈獎得主Richard S. Sutton:AI受困於人類數據
2025 年6 月6 日,第七屆北京智源大會在北京正式開幕,強化學習奠基人、2025年圖靈獎得主、加拿大計算機科學家Richard S. Sutton以“歡迎來到經驗時代”為題發表主題演講,稱我們正處於人工智慧史上從“人類數據時代”邁向“經驗時代”的關鍵拐點。Sutton指出,當今所有大型語言模型依賴互聯網文字和人工標註等「二手經驗」訓練,但高品質人類資料已被快速消耗殆盡,新增語料的邊際價值正急劇下降;近期多家研究也觀察到模型規模繼續膨脹卻收效遞減的「規模壁壘」現象,以及大量科技公司開始轉向合成數據。在Sutton看來,要突破這個極限,智能體必須像嬰兒學習玩具、足球員在賽場決策那樣,透過與環境互動不斷生成並利用第一手經驗,而非單純模仿人類舊有文字。這個觀點呼應了Alan Turing1947年就已提出的預言——「我們想要的是一台能夠從經驗中學習的機器」——為人工智慧奠定了早期哲學基礎。 Sutton與長期合作者Andrew Barto憑藉強化學習架構將此理念工程化,並因此榮膺2024/25年度圖靈獎,強化學習也在AlphaGo、機器人控制等里程碑專案中反覆驗證其可行性。他進一步闡釋「經驗時代」的技術特徵:智能體需要在真實或高保真模擬環境中持續運行,用環境回饋而非人類偏好作為原生獎勵信號,發展能夠長期復用的世界模型與記憶體系,並透過高並行互動大幅提升樣本效率。超越技術維度,Sutton把視角拓展到社會治理,強調「去中心化合作」優於「中心化控制」。他警示,要求以單一目標束縛AI 的論調與歷史上出於恐懼而試圖控制人類行為的思路驚人相似;真正的進步源於多元目標並存的生態系統,透過分佈式激勵與競爭協作保持創新活力。在他看來,讓智能體和人類都保持多元追求,不僅能降低單點失效與僵化風險,也為未來AI治理提供了更具韌性的框架。底線重點:目前大型模型已逼近「人類數據」邊界,唯有讓智能體透過與環境即時互動來產生可隨能力指數級擴張的原生數據,AI 才能邁入「經驗時代」 。真正的智能應像嬰兒或運動員一樣在知覺-行動循環中憑第一人稱經驗自我學習。強化學習範例(如AlphaGo、AlphaZero)已證明從模擬經驗到現實經驗的演進路徑,未來智能體將依靠自生獎勵和世界模型來實現持續自我提升。基於恐懼的「中心化控制」會扼殺創新,多主體維持差異化目標並透過去中心化合作實現雙贏,這是人類與AI 共同繁榮的製度根基。面向超越人類的智能體與人機共生的遠景,我們應保持理性樂觀——這是一場需要幾十年耐心長跑的工程,其成敗取決於更強的持續學習演算法與開放共享的生態。以下為演講全文:1. 從人類資料時代邁向經驗時代剛才聽了Bengio教授的演講,現在確實是AI發展的一個令人興奮的時代。我想分享兩句引言,它們指向了我今天要表達的兩個重要觀點。第一句來自雷‧庫茲韋爾:「智慧是宇宙中最強大的現象。」這讓我們感受到AI的重要性以及今天AI領域正在發生的事情的重要性。第二句來自阿蘭‧圖靈,他說:『我們想要的是一台能夠從經驗中學習的機器。」他在1947年倫敦數學學會的演講中說了這句話。據我們所知,這是有史以​​來第一次關於人工智慧的公開演講。當時還沒有AI這個領域,我認為這是第一次有人在公開場合展示AI。圖靈強調的是一台能夠從自己的第一人稱經驗中學習的機器,這就是我們今天真正在談論的內容。現在,我們正處於人類資料時代。我們所有的人工智慧都是在人類生成的文字和來自網路的圖像上訓練的,然後被人類專家根據他們的偏好進行微調。整個系統都被訓練來預測人類的下一個詞,而不是試圖預測世界。我認為我們開始達到人類數據的極限,幾乎達到這種策略的極限。高品質的人類資料來源已經被消耗殆盡,而產生真正新的知識超出了模仿人類的方法範圍。要做真正新的事物,必須與世界互動。因此我們正進入經驗時代。 AI需要一個新的資料來源,這個資料來源會隨著智慧體變得更強而成長和改善。任何靜態資料集都將是不夠的。你可以從經驗中獲得這種數據,從與世界的第一人稱互動中獲得。經驗意味著從進入感測器和輸出到執行器的數據,這是人類和其他動物學習的正常方式。觀察一個嬰兒與世界互動的例子:它依序與世界的不同部分互動,與不同的玩具互動,試圖學習如何使用那些玩具。注意它正在做出決定來確定自己的輸入。它會與一個玩具互動一段時間,直到學會了所有能學的,然後繼續前進。隨著成長和變得更加複雜,它能從每樣東西中學到的量會改變,行為也會不同。它自己的行為決定了它的經驗和數據,這就是我們所需要的。再來看其他例子,人類和動物在學習,像是踢足球、達成目標。想想流入足球員眼睛、耳朵和身體感官的數據:一切都在變化,一切都在快速移動,流入大腦的數據流是巨大的。運動員無法專注於一切,必須做出快速決定來實現目標。這就是足球員的生活,或動物在森林中飛行、逃離掠食者、揮動棒球棒擊球或進行對話的生活——都需要高頻寬訊號處理,這構成了技能、感知和行動。這就是經驗,我指的不是任何抽象概念,只是指進出大腦的資料。資料來源會根據大腦的能力變得可變,就像兩個遊戲系統互動時一樣。隨著它們的改進,數據也變得更好和不同。這就是AlphaGo學會做出創意移動的方式——著名的第37手。這對於從經驗中學習至關重要,在這種情況下,經驗是透過模擬可能的移動和這些移動的後果產生的。在AlphaProof中也是類似的,這是在國際數學奧林匹克競賽中獲得獎牌的系統。在數學中,你可以看到操作的後果,並向前看很多步。關於經驗思考模式:智能體與世界交換訊號,這些就是它的經驗,然後從那種經驗中學習。更深層的觀察是,智能體知道的任何東西都是關於經驗的。即使提前給智能體一些知識,它仍然必須是關於經驗的——不是關於文字的,而是關於如果要做事情會發生什麼。知識是關於經驗的,因此可以從經驗中學習。智能體的智慧程度取決於它們能夠預測和控制其輸入訊號的程度,特別是獎勵訊號的預測和控制。這就是AI應該關注的核心。智能是關於經驗的,是所有智能的焦點和基礎。強化學習領域就是基於這種思考模式,讓智能體成為能夠做決定、實現目標、與世界互動的一流智能體。2. AI發展的三個時代我們可以回顧現在所處的時間線。第一個時代是AlphaGo時代、Atari時代,這是模擬時代,強化學習智能體從模擬經驗中學習,變得更好,有AlphaGo和AlphaZero這些震撼世界的著名例子。然後我們進入了ChatGPT和大型語言模型的人類資料時代。我們現在可能正處於那個時代的末期,所有數據都來自人類。接下來我們將進入經驗時代,透過與世界互動的經驗學習。我們在AlphaProof中看到了這一點的第一個暗示,當大型語言模型現在使用電腦、存取API並實際在世界中採取行動時,我們也看到了這種暗示。這是我關於AI未來視角的第一點。我的觀點是,創造超級智慧智能體和超級智慧增強人類,對世界來說將是純粹的好事。我不擔心安全問題,也不擔心失業問題,這只是轉型和世界發展的正常部分。我認為這需要時間,需要幾十年,在那之後還會持續幾十年。這是一場馬拉松,不是短跑,但我們為此做好準備是明智的。完全智慧的智能體將必須從經驗中學習,這超出了我們目前的智能體能力。它們將作為世界知識的可自訂介面。我們已經使用強化學習進入了這個新的經驗時代。然而,要實現其全部力量將需要更好的深度學習演算法,這些演算法能夠持續學習。3. 去中心化合作與中心化控制的發展哲學現在我想轉換話題,談發展問題。我們必須問這個基本問題:在智能體社會中,只有一個每個人都分享的目標,還是有許多目標?身為一個強化學習研究者,思考智能體問題對我來說很自然。在強化學習中很明顯,每個智能體都有自己的目標,有自己的獎勵訊號進入大腦,試圖最大化那個目標。沒有理由要求不同智能體的獎勵訊號必須相同。在自然界中,每個動物都有類似的訊號進入大腦,這實際上是在下丘腦中計算的,包括疼痛感測器和快樂感測器。在AI和自然界中,不同的智能體有不同的目標。我們可以談論它們如何分享目標,例如每個動物都關心食物,但一個動物的食物不是另一個動物的食物,這些是對稱的目標,不是相同的目標。人類也是如此,我們關心自己的家庭、食物和安全,超過共同目標。反思我們的經濟體系如何最好地運作:我認為當人們有不同的目標和不同的能力時,它們運作得最好。目標不必衝突,但可以不同,差異是好的。我們的社會並不真正依賴人們有相同的目標,而是依賴人們追求個人角色然後互動。我們社會的明顯特徵是我們可以和平共存,即使我們都想要不同的東西。我們交易、專業化、互動。讓我做一些定義以便簡單討論。我定義去中心化為這種現象:有許多智能體,每個都追求自己的目標。這與中心化形成對比:許多智能體都被約束為有相同的目標。例如,蜜蜂群是中心化社會,有許多智能體,但它們都在追求蜂巢的目標,螞蟻也是如此。去中心化意味著許多智能體,每個都追求自己的目標,每個都被允許有自己的目標。合作是當有不同目標的智能體互動以獲得互利時,每個智能體實現自己的目標,並透過互動促進自己的目標,形成雙贏關係。這是去中心化的合作。我認為合作是我們的超能力。人類比其他動物合作得更多,合作由語言和金錢促進,這兩樣東西都是人類獨有的。人類最大的成功是我們的合作,例如經濟、市場和政府,這些都是我們合作的方式。我們最大的失敗是合作的失敗,例如戰爭、偷竊和腐敗。去中心化合作是社會組織的另一種觀點。在我看來,它比中心化觀點更優雅,去中心化合作更強大、更永續、更靈活,對作弊者和異常值更有抵抗力。必須承認,我們在合作方面仍然很糟糕。我們仍然有戰爭、盜竊和詐欺。我們必須努力合作,但合作並不總是可能的。它至少需要兩個值得信賴的智能體,總是會有一些不值得信賴的。那些從不合作中獲得優勢的——作弊者、小偷、武器製造商和獨裁者,他們從不合作中受益。合作需要機構來促進它,懲罰作弊者、詐欺者和小偷。中心化權威可以幫助合作,提供促進合作所需的機構。但那些中心化權威也可能在長期內毒害合作,當權威變得專製或僵化時。這種對比就是中心化控制和去中心化合作的差異。如果觀察控制AI的呼籲和控制人類社會的呼籲,會發現這兩者驚人得相似。關於AI,有很多呼籲。有暫停或停止AI研究的呼籲,有限制可以用來製造AI的算力的呼籲,有確保AI安全製造和要求披露的呼籲。與此相似的是控制人類的呼籲。我們時代的大問題包括:言論應該自由嗎?人們可以被允許聽到其他人的觀點嗎?我們可以有自由貿易還是必須被控制?如何控制就業?如何控制金融和資本?是否對某些國家實施關稅和經濟制裁?這基本上是一個社會問題:我們將如何處理人們有多個不同目標的現實?我們要去中心化嗎,還是要朝中心化控制發展?中心化控制的呼籲非常相似,都基於恐懼,都基於"我們對他們"的思維。在每個社會中,都有一些不能被信任的人,但也有通常可以信任的大多數。總結一下,我認為所有人類和AI的繁榮都來自去中心化合作。人類在合作方面很出色,但也有不足。合作會遇到阻礙和挫折,但它是世界上所有美好事物的來源。我們必須尋找和支援合作,並尋求將其製度化。現在,我必須呼籲人類使用自己與世界的經驗,用自己的眼睛觀察。我認為如果大家這樣做,很容易看到誰在呼籲不信任,誰在呼籲不合作。 (騰訊科技)